Content
Diffusion Model(扩散模型)是目前(2026)图像生成和视频生成的主流 AI 架构,Midjourney、Stable Diffusion、DALL-E 3、Sora 等均基于此原理。
其具体生成图片的过程是在一张充满噪点的图上进行反复去除噪点的操作后最终得到一张符合 prompt 描述的图片。
Acceptance
核心思路:逆转「加噪」过程
训练时做两件事:
- 加噪(Forward Process):取真实图像,逐步叠加随机噪声,直到图像变成一团纯随机噪点
- 学习去噪(Reverse Process):训练神经网络,学会从「加了一步噪声的图像」中预测「干净一点的图像」
推理时:
- 从一张纯噪点图出发(100% 随机)
- 模型反复执行去噪步骤(通常 20~50 步)
- 每步依据文本 prompt 引导去噪方向
- 最终得到符合 prompt 描述的图像
为什么效果好?
传统生成模型(GAN)直接从噪声到图像是个高难度的「一跳」,Diffusion 把它拆成了几十步「小步走」,每步只需要完成微小的去噪——这使训练更稳定、生成质量更高。
关键概念:
- Latent Diffusion(潜变量扩散):不在像素空间而是在压缩的「潜空间」里做扩散,大幅降低计算量(Stable Diffusion 用的就是这个)
- Guidance(引导):CFG(Classifier-Free Guidance)技术让 prompt 更有效地控制生成方向
- DiT(Diffusion Transformer):用 Transformer 替换原来的 UNet 作为去噪网络,是新一代架构(FLUX、Wan2.1、Sora 均用 DiT)
视频生成 = 图像生成的时间延伸:
视频扩散模型在时间轴上也做扩散,确保帧与帧之间的连贯性。挑战是大幅增加了计算量(一段 5 秒视频 ≈ 150 张图片)。
Question
- Stable Diffusion 和 Midjourney 都基于 Diffusion Model,但效果差异很大,原因是什么?
- LoRA 微调是怎么让 Diffusion Model「学会」特定角色/风格的?
- Diffusion Model 和 LLM 的架构越来越接近(都用 Transformer),未来会融合成一个统一模型吗?
See Also
Transformer
属性纠缠(Attribute Entanglement)
Context Window
Reference
- 2026-03-24 LumosX 论文调研(视频扩散模型应用)
- Ho et al., 2020: “Denoising Diffusion Probabilistic Models (DDPM)“
YoYo’s Note
扩散模型是 AI 图像生成的「秘密武器」,理解它能让你更聪明地使用 Midjourney。
最反直觉的地方:模型从随机噪点开始生成图像。它不是「想象出」一张图,而是在「洗去噪声」的过程中,被 prompt 引导着一步步塑造出你要的东西。这意味着:
- Seed 的作用:同一个 seed = 同样的起始噪点 = 在相同「基础」上塑造 → 更容易保持一致性
- Steps 的权衡:步数越多 = 去噪越精细,但速度越慢
- CFG Scale:值越高,模型越「听话」地按 prompt 生成,但创意和细节可能变少
对 SaltyFlame 的启示:如果想让不同场景的角色保持一致,固定 seed + --cref 是目前 Midjourney 最接近 LumosX 那种「显式绑定」效果的方法。